让AI学习效率飙升50倍的秘密:在线策略蒸馏
于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。
学习 策略 th thinkingmachines rlhf 2025-10-29 12:12 2
于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。
学习 策略 th thinkingmachines rlhf 2025-10-29 12:12 2
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
thinking qwen thinkingmachines 2025-10-28 12:10 2
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
thinking qwen thinkingmachines 2025-10-28 12:18 2
在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
博客 qwen thinkingmachines think 2025-10-28 08:41 2
简单来说在线策略蒸馏巧妙地结合了两种主流后训练范式的优点:它既有强化学习等在线策略方法的相关性和可靠性,能够让模型从自身的错误中学习;又具备监督微调 (SFT) 等离线策略 (Off-policy) 方法的数据效率,通过密集的监督信号加速学习过程
llm thinking thinkingmachines 2025-10-28 06:19 1
现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 R
a thinkingmachines machineslab 2025-10-27 16:17 3
现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 R
a thinkingmachines machineslab 2025-10-27 15:51 5
现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 R
a thinkingmachines machineslab 2025-10-25 12:24 2
人工智能初创公司 Thinking Machines Lab 的一位联合创始人Andrew Tulloch跳槽至 Meta。
meta thinkingmachines machines 2025-10-12 15:34 4
OpenAI前CTO Mira Murati创业公司Thinking Machines Lab证实,联创、首席架构师Andrew Tulloch已经离职去了Meta。
meta offer ma thinkingmachines 2025-10-12 10:18 3
2025年9月30号下午6点多,机器之心Pro发了条消息,说ThinkingMachines又更新博客了。
lora thinkingmachines 实 fullft 2025-10-02 13:34 6
简单来说,Tinker 是一个 API,用于帮开发者 / 研究人员微调语言模型。重要的是,在此过程中,你只需要专注于训练数据和算法,而你不擅长的关于 Infra 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定,这将
tinker thinkingmachines thinki 2025-10-02 11:10 5
LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习
l thinking thinkingmachines 全参 2025-09-30 20:52 4
LoRA 在绝大多数后训练场景下,能以远低于全量微调的成本,获得几乎同等的效果。Thinking Machines 将这一现象形容为 LoRA 的低遗憾区间(low-regret region)——即便不用全量微调,选择 LoRA 也不会让人后悔。
博客 thinkingmachines 全量微调 think 2025-09-30 18:46 2
AI领域从不缺乏颠覆性事件,却极少有一家公司能像Thinking Machines Lab 这样,在成立仅七个月、尚未推出正式产品、甚至没有实际用户的情况下,就以120亿美元(折合人民币850亿元)的估值惊艳全球行业。
论文 mac llm 估值 thinkingmachines 2025-09-17 13:57 5
由前OpenAI技术负责人Mira Murati创立的Thinking Machines Lab宣布,在人工智能领域取得关键技术突破,成功解决了大语言模型(LLM)推理过程中长期存在的输出不可预测问题。该实验室发布的最新研究《在LLM推理中战胜不确定性》显示,
t thinkingmachines machineslab 2025-09-11 17:59 5
前OpenAI首席技术官Mira Murati创办的Thinking Machines Lab近日发布重要技术突破,成功解决了困扰AI行业多年的模型输出不确定性问题。该实验室在最新发布的研究报告中宣布,他们已经实现了大语言模型推理过程的完全确定性输出。这项名为
t thinkingmachines machineslab 2025-09-11 14:11 6
就在今天,由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab,发了第一篇文章 ——《克服 LLM 推理中的不确定性》(Defeating Nondeterminism in L
推理 llm thinkingmachines llm推理 2025-09-11 11:53 6